Técnicas em Processamento e Análise de Documentos Manuscritos
نویسندگان
چکیده
This work aims to present the main modules of a typical Handwriting Document Processing and Analysis System (HDPAS): data acquisition, preprocessing, segmentation, feature extraction and recognition. First, the relevant aspects of each HDPAS process are given, different types of documents, filtering and segmentation techniques applied to extract the interested data. Then, the main Hidden Markov Models (HMM) concepts are described, as well as, the different types of HMMs and the algorithms required to implement this statistical technique for modeling handwriting text. Finally, some interesting HMM-based methods for handwritten numeral string recognition, handwritten word recognition and signature verification are briefly described. Revista RITA: instruções para preparação de documentos em Word RITA • Volume VIII • Número 1 • 2001 3 1 Introdução Análise e reconhecimento de imagens de documentos é uma área de grande relevância por suas inúmeras aplicações. Por possuir características próprias, cada documento naturalmente exige soluções computacionais específicas. Para uma hieraquização do problema adota-se a seguinte divisão de abordagens: nível inferior, intermediário e superior, conforme Figura 1. Percebe-se que ocorre uma redução progressiva da quantidade de dados manipulados à medida que se passa por níveis crescentes de abstração. Figura 1. Etapas de processamento e análise de imagens para aplicações em envelopes postais No nível inferior, os dados de entrada são os pixels da imagem original do documento e os dados de saída representam imagens tratadas, na forma de valores numéricos associados a cada pixel. Como por exemplo, imagens agora sem sujeiras e ruídos, eliminados por processos de filtragem e realce. No nível intermediário, os valores numéricos obtidos na fase anterior são utilizados na produção de uma lista de características visando a representação adequada de cada um dos campos de um documento. Finalmente, no nível superior produzse, a partir destas características, uma interpretação do conteúdo de cada um dos campos através de métodos sintáticos, conexionistas e estocásticos. Um sistema genérico para processamento e análise de imagens de documentos é composto pelos seguintes módulos: Revista RITA: instruções para preparação de documentos em Word 4 RITA • Volume VIII • Número 1 • 2001 • Aquisição e digitalização de imagens: consiste em transformar documentos em imagens digitais sob a forma de tabelas de valores chamados pixels; • Pré-processamento: deve permitir o tratamento de problemas de inclinação, fundos ruidosos, rabiscos, dados subscritos, dados sublinhados, dentre outros; • Segmentação: consiste em localizar automaticamente os campos relevantes do documento; • Interpretação: representa a parte “inteligente” e deve permitir o reconhecimento automático do conteúdo de cada um desses campos. Este trabalho encontra-se dividido em 7 seções. A Seção 2 apresenta as técnicas de segmentação e de extração de características. A Seção 3 descreve a formulação teórica dos Modelos Escondidos de Markov (MEM). As Seções 4, 5 e 6 apresentam o uso de MEM no reconhecimento de numerais, palavras manuscritas e assinaturas, respectivamente. Finalmente, a Seção 7 conclui o presente trabalho ressaltando os desafios encontrados na área de processamento e análise de documentos manuscritos. 2 Técnicas de segmentação e extração de características A captura de imagens de documentos, mesmo realizada com o máximo cuidado, é um processo que introduz uma série de degradações provenientes [1]: • Do próprio processo de digitalização: qualquer que seja a maneira empregada para digitalizar um documento (scanner, máquina fotográfica, etc), este sofre um processo de amostragem tanto das coordenadas espaciais quanto da intensidade. A conseqüência disto é que a qualidade da imagem ser sempre pior que a do documento original; • Da qualidade precária de certos documentos: livros antigos, por exemplo; • De falhas humanas: a mais comum delas é o posicionamento inadequado do documento no momento de sua digitalização. Portanto, qualquer sistema de Gerenciamento Eletrônico de Documentos (GED) deve dispor de ferramentas que possam reverter o processo de degradação de maneira a resgatar o máximo de qualidade do documento. As técnicas de melhoria da qualidade de imagens podem ser divididas em duas famílias: • Técnicas de restauração: a restauração procura obter a imagem original, tendo se possível, um conhecimento a priori da degradação. Sua ênfase está na modelagem de degradações e na recuperação de imagem por inversão do processo de degradação; • Técnicas de realce: quando não é possível de antemão dispor do processo de degradação ou os padrões de degradação não podem ser avaliados. Devido a dificuldade de se conhecer de antemão os processos de degradação e da complexidade computacional da modelagem destas degradações, faz-se pouco uso de técnicas de restauração. As técnicas de realce de imagens são relacionadas com a expansão Revista RITA: instruções para preparação de documentos em Word RITA • Volume VIII • Número 1 • 2001 5 de contraste, realce de bordas e suavização. A maioria das técnicas de realce de imagens são heurísticas e orientadas para aplicações específicas. Com o realce de uma imagem, objetivase a obtenção de uma imagem apresentando bom contraste, contornos nítidos, riqueza de detalhes e pouco ruído. Devido a grande quantidade de técnicas de realce disponíveis na literatura serão apresentadas aqui as mais utilizadas para documentos. 2.1 Aprimoramento de contraste e detalhes Um método bastante utilizado no caso de documentos é a equalização de histograma [1] por sua economia em termos de memória usada, por seu tempo de processamento reduzido, e por ser simples e eficiente. O histograma da imagem é reformulado em um histograma diferente, que possui a propriedade de distribuição uniforme objetivando assim a melhoria do contraste da imagem. A Figura 2 exemplifica o processo de equalização de histograma de uma imagem de cheque bancário de baixo contraste. Figura 2. Exemplo de equalização de histograma 2.2 Redução de ruído Devido ao aspecto digital das imagens, os filtros não lineares representam as técnicas mais eficientes de suavização de ruído, por exemplo o filtro da mediana [1], o filtro de Nagao-Matsuyama [2]. Filtro da mediana: O filtro da mediana faz parte da família dos filtros de ordem e representa na sua categoria o filtro não linear mais fácil de se implementar, permitindo um ganho de qualidade mesmo em casos de documentos bastante ruidosos ( Figura 3). a) b) Figura 3. Exemplo de filtragem não linear da mediana: a) imagem original; b) resultado Filtro de Nagao-Matsuyama: Revista RITA: instruções para preparação de documentos em Word 6 RITA • Volume VIII • Número 1 • 2001 Nagao e Matsuyama [2] propuseram um método de suavização eficiente baseado em 9 máscaras, das quais 8 são assimétricas. Apesar de um esforço computacional elevado, esse filtro realiza o compromisso difícil de suprimir os pontos isolados, reduzir o ruído e ao mesmo tempo realçar as transições e a nitidez da imagem original (Figura 4). a) b) c) d) Figura 4. Comparação de filtragem: a) imagem original; b) média; c) mediana; d) Nagao-Matsuyama 2.3 Realce de bordas e detalhes Qualquer captor introduz uma falta de nitidez mais visível especificamente pelas bordas e detalhes, que representam componentes de altas freqüências. Realçar bordas e detalhes faz-se, portanto, através da amplificação das altas freqüências. Não se deve esquecer que o ruído é também um componente de alta freqüência, um tratamento preliminar é necessário para evitar amplificar ao mesmo tempo ruído e bordas. Dentro das técnicas disponíveis na literatura, pode-se destacar os operadores de diferenciação lineares Gradiente Laplaciano e o Gradiente Morfológico [3] (Figura 5). a) b) c) d) Figura 5. Realce de bordas: a) imagem original; b) gradiente; c) gradiente morfológico; d) Laplaciano 2.4 Correção da inclinação É muito comum, no caso de documentos, ter que corrigir problemas de inclinação provenientes de erros humanos no momento da aquisição, de características próprias de certos documentos como por exemplo livros antigos ou ainda da própria tendência do ser humano em escrever de forma inclinada. Existem muitas abordagens de correção deste tipo de problema como apresentado na Seção 5. Revista RITA: instruções para preparação de documentos em Word RITA • Volume VIII • Número 1 • 2001 7 2.5 Segmentação O objetivo da segmentação é obter, a partir de uma imagem, um conjunto de “primitivas” ou “segmentos significativos” que contém a informação semântica relativa à imagem. A grande dificuldade da segmentação reside no fato de não se conhecer de antemão o número e tipo de estruturas que se encontram na imagem. Essas estruturas são identificadas a partir da geometria, forma, topologia, textura, cor ou brilho sendo escolhidas aquelas que possibilitam a melhor identificação. As abordagens existentes na literatura são múltiplas, dentro das quais a segmentação por região, binarização e multi-binarização, contorno, textura, cor, modelos de Markov, redes neuronais artificiais, algoritmos genéticos, modelos de contornos ativos, morfologia matemática, baseada na teoria dos conjuntos nebulosos, ou ainda híbridas. Segmentação por binarização e multi-binarização Transformar uma imagem em níveis de cinza em uma imagem binária, processo chamado de binarização ou ainda de limiarização, é provavelmente no caso de documentos, uma das técnicas mais usadas. Isto porque se faz uso freqüente de processos de reconhecimento de caracteres que necessitam de imagens binárias. Toda técnica de binarização, baseada na noção de histograma, busca particionar uma imagem em duas classes C0 e C1, a partir de um limiar L. De forma ideal, o limiar L situa-se no vale entre os dois picos no histograma, sendo um pico para cada classe [4] . a) b) c) d) Figura 6. Exemplo de binarização: a) imagem original; b) binarização global; c) multi-binarização; d) extração automática de dígitos por morfologia matemática Inúmeras técnicas já foram propostas, porém nenhuma delas serve para qualquer tipo de documento [4]. Isto porque, apesar da simplicidade do processo, dependendo da qualidade do original, podendo haver buracos nas linhas, borda rompida na região limítrofe ou região estranha de pixels, não se pode nunca esperar resultados perfeitos. Quando se usa um único valor de limiar para toda a imagem, a binarização é dita global [5]. Quando se busca um limiar analisando intensidades de níveis de cinza dentro de janelas deslizando na imagem, o processo é chamado de binarização adaptativa [6]. Existe ainda uma forma mais completa porém mais complexa que consiste em agrupar os pixels da imagem não somente em duas classes, mas em um número maior de classes pertinentes. Este tipo de binarização chama-se de multi-binarização ou ainda de binarização multimodal [7], [8]. As Figuras 6-b) e 6-c) ilustram o exemplo de uma binarização global e de uma multibinarização de uma imagem complexa de recibo de cartão de crédito. A imagem foi Revista RITA: instruções para preparação de documentos em Word 8 RITA • Volume VIII • Número 1 • 2001 automaticamente particionada em 5 classes, resultando numa imagem muito parecida com a imagem original. Segmentação morfológica Uma outra abordagem de filtragem não linear que está propiciando grandes avanços em termos de segmentação de documentos é a morfologia matemática. A qual consiste em extrair uma informação relativa à geometria e à topologia de um conjunto desconhecido de uma imagem pela transformação a partir de um outro conjunto perfeitamente definido chamado de elemento estruturante [3], [9]. Enquanto as ferramentas acima citadas processam unicamente imagens em níveis de cinza, a morfologia matemática processa da mesma maneira imagens em níveis de cinza e binárias. Esta abordagem é uma das poucas ferramentas que tem êxito no processamento de documentos complexos [3], [9]. A Figura 7 ilustra a remoção automática do fundo complexo de um cheque bancário a partir da ferramenta denominada Fillhole. A Figura 8 mostra outras aplicações da morfologia matemática na extração e localização de dados em imagens. a) b) Figura 7. Exemplo de processo morfológico: a) imagem original; b) resultado do operador Fillhole Exemplos Resultados de Segmentação Extração automática de dados manuscritos em formulário [10] Formulário original inclinado Extração automática do conteúdo Extração automática do logotipo [11] Cheque bancário Extração automática do logo Revista RITA: instruções para preparação de documentos em Word RITA • Volume VIII • Número 1 • 2001 9 Figura 8. Exemplos de localização e extração de dados em imagens 3 Modelos escondidos de Markov (hidden Markov models) para reconhecimento Modelos de Markov são representações utilizadas para se modelar um sinal através de uma seqüência de observações. Em uma Cadeia de Markov supõe-se uma fonte gerando tais saídas observáveis, denominada de Fonte de Markov. Os símbolos gerados a partir dessa fonte são dependentes apenas de observações anteriores, as quais foram geradas da mesma forma e assim sucessivamente. O número de seqüências anteriores consideradas para gerar uma saída é conhecido como ordem da Cadeia de Markov. Na maioria das aplicações conhecidas cadeias de primeira e segunda ordem são suficientes, mesmo porque a complexidade computacional cresce exponencialmente a partir de então. Cada estado de uma Cadeia de Markov representa uma observação/símbolo de um evento físico correspondente, o que proporciona computar a partir de uma dada seqüência de símbolos quais foram os estados que geraram tal seqüência. Contudo, em aplicações reais mais de um símbolo pode ser observado por estado e a origem dessas observações torna-se imprecisa e dependente. Em um Modelo Escondido de Markov (MEM) cada estado representa uma probabilidade sobre todos os símbolos, por isso a denominação “escondido” pois é o conjunto dos símbolos que está representado. A estrutura restante do modelo é a mesma de uma Cadeia de Markov. Um MEM, portanto, possibilita computar a seqüência de estados com maior probabilidade de ter gerado a seqüência observada de símbolos. Referências detalhadas sobre MEM e algumas aplicações podem ser encontradas em [12]. 3.1 Definição de MEM Um MEM discreto pode ser descrito por λ = (Q, V, A, B, π, T), onde: • T : comprimento da seqüência de observações, • Q = {q1, q2,..., qN}: o conjunto de estados do modelo, qt designará o estado da cadeia no instante t, e N é o número de estados do modelo, • V = {v1, v2, ...vm}: conjunto de símbolos de observações possíveis. Ot designará o símbolo da observação ao instante t, • M = número de símbolos da observação, • A = {aij} 1 ≤ i , j ≤ N : matriz de transição de estados. O elemento aij corresponde a probabilidade de transição do estado qi para o estado qj: ( ) [ ] [ ] 1 , 1 , ... 1 , / 1 − ∈ ∀ ∈ ∀ = = = = T t N j i q Q q Q pr a i t j t ij (1) com as seguintes restrições: Revista RITA: instruções para preparação de documentos em Word 10 RITA • Volume VIII • Número 1 • 2001 ∑ = = ∀ ≥ N j ij ij a e j i a 1 1 , 0 (2) • B = {bjk} 1≤j≤N; 1≤k≤M : matriz de probabilidade de observação de símbolos condicionada pelos estados da cadeia. O elemento bjk representa a probabilidade de observar o símbolo Vk quando o modelo se encontra no estado qj: ( ) M k N j q Q v O pr b j t k t j ≤ ≤ ≤ ≤ = = = 1 1 / (3) com as seguintes restrições:
منابع مشابه
Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem ...
متن کاملBizPro: Um Sistema de Análise para Dados Financeiros
The analysis of financial data is a set of techniques used to understand the institution’s economic and financial situation. New challenges have been created by the adoption of XML standards for disclosing financial information and the considerable increase in the volume of informations. This paper presents BizPro, a system for managing financial data. In particular it shows BAL, a language of ...
متن کاملUtilização do Caminhamento Aleatório na Identificação de Características de Documentos na Língua Portuguesa
Due to a great amount of web-stored texts, the text mining area has been coming through a series of studies in order to optimize the automatic classification of texts. In this context, this study is aimed at testing a technique to assess the weight of terms named random-walk and applying it to Portuguese language texts. This technique uses the co-occurrence of the terms as a measure between the...
متن کاملTécnicas que Utilizam Processamento de Imagens para Detecção e Classificação da Direção do Olhar
A visão possui muitos sensores responsáveis pela captação de informações que são enviadas ao cérebro. O olhar reflete a sua atenção, intenção e interesse. Sendo assim, a detecção da direção do olhar é uma alternativa promissora para a comunicação com a máquina. A aplicação de técnicas para detecção da direção do olhar tem a possibilidade de melhorar significativamente a capacidade de interação ...
متن کاملIncorporação de representação vetorial distribuída de palavras e parágrafos na classificação de SMS SPAM
Resumo—A classificação automática de SMS spam é um problema desafiador, pois ao contrário de outros documentos (como e-mails, por exemplo), esses textos são extremamente curtos, com no máximo 140 caracteres. Além disso, eles normalmente são escritos utilizando gírias, abreviaturas e símbolos como emoticons. Técnicas de pré-processamento tem sido aplicadas para contornar esse problema, como o us...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- RITA
دوره 8 شماره
صفحات -
تاریخ انتشار 2001